打开APP

Nature:告别结构先验——Evo模型如何利用“基因组语义”实现功能基因的从头设计?

来源:生物探索 2025-11-24 10:43

这项研究向我们展示了一种全新的生物学范式:功能不一定非要通过结构或序列相似性来定义,它可以通过“语境”来定义。

在语言学界,有一个著名的“分布假说”(Distributional Hypothesis),由英国语言学家J.R. Firth在1957年提出:“通过一个词周围的词,你就能了解这个词的含义”。简而言之,词义是由语境决定的。如果我们把视线从人类的语言转向生命的语言——DNA,这个假说是否依然成立?

在原核生物的基因组中,功能相关的基因往往像亲密的邻居一样聚集在一起,形成基因簇或操纵子(Operons)。这种“物以类聚”的现象长期以来被用于推断未知基因的功能。但是,如果我们不仅预测功能,而是利用这种上下文关系去创造功能,会发生什么?

11月19日,《Nature》的研究报道“Semantic design of functional de novo genes from a genomic language model”,研究人员开发了基因组语言模型Evo,通过学习“语义”,实现了基因的“自动补全”。令人震惊的是,它生成的许多基因序列在自然界中如同“暗物质”般不存在,却在实验中完美执行了预期功能。

图片

基因组的“语言模型”:从Evo 1.0到Evo 1.5

为了实现这一壮举,研究人员构建了Evo 1.5模型,这是在原有Evo 1模型基础上的大规模升级。Evo 1.5的训练数据来自OpenGenome数据集,包含了约80,000个细菌和古菌基因组,以及超过200万个噬菌体和质粒序列,总计约3000亿个核苷酸。

但Evo 1.5最引人注目的并非数据量,而是它的“长上下文”能力。它将上下文窗口扩展到了131,072个token。这意味着模型在生成一个碱基时,可以参考长达13万个碱基的上下文信息。这对于理解原核生物的基因组至关重要,因为基因之间的调控和协作往往跨越了相当长的距离。

为了验证Evo 1.5是否真的理解了基因组的“语境”,研究人员设计了一个经典的“自动补全”测试。就像考Evo做“完形填空”:只给模型看基因序列的前30%、50%或80%,让它把剩下的补全。

结果显示,Evo 1.5展现出了惊人的理解力。以大肠杆菌的 rpoS 基因这类长序列为例,仅仅给出30%的序列作为提示,Evo 1.5就能恢复出85%的原始氨基酸序列。相比之下,上一代拥有同样长上下文窗口但训练步数较少的Evo 1 131K模型,恢复率仅为65%。这20%的巨大提升,证明了通过更长时间的预训练,模型能够捕捉到更深层的长程依赖关系。当提示序列增加到80%时,Evo 1.5的恢复率几乎达到了完美的100%。

更有趣的是,Evo不仅仅是在死记硬背。当检查生成的 modB 基因序列时,研究人员发现虽然氨基酸层面的关键位点被保留了下来,但在核苷酸层面上,生成的序列展现出了极高的多样性。这意味着,Evo理解了“同义词”的概念——它知道可以用不同的DNA编码来表达相同的蛋白质功能。

挑战进化军备竞赛:毒素-抗毒素系统的语义生成

真正的挑战在于“创造”。研究人员将目光投向了细菌和噬菌体之间那场永恒的战争:防御系统。他们首先选择了II型毒素-抗毒素系统(Type II Toxin-Antitoxin, T2TA)。利用这种基因在基因组上紧邻的关系,研究人员设计了一套巧妙的“语义设计”流程:

1 输入上下文:输入毒素基因周围的DNA序列,询问AI:“这里应该有个毒素,它长什么样?”

2 验证毒性:拿到AI生成的毒素后,验证其是否具有生物学毒性。

3 生成解药:把这个新生成的毒素作为“上下文”,反过来问AI:“谁能中和这个毒素?”

实验结果令人振奋。研究人员筛选出的EvoRelE1毒素表现出了强烈的毒性,能将细菌的相对存活率降低约70%。随后,以EvoRelE1为提示生成的抗毒素候选者中,50%成功挽救了细胞的生长。其中,EvoAT1和EvoAT2表现尤为出色,将细胞存活率恢复到了95%甚至100%。

这里出现了一个颠覆认知的现象:交叉反应性与“通用语法”。在自然界中,RelB抗毒素通常只能中和它对应的RelE毒素。然而,AI生成的EvoAT2竟然展现出了惊人的广谱性——它不仅能中和EvoRelE1,还能中和自然界中的RelE、MazF和YoeB三种不同的毒素!

更令人惊讶的是,EvoAT1到EvoAT4与自然界已知蛋白的序列同一性极低,仅在21%到27%之间。特别是EvoAT2和EvoAT3,它们在数据库中最接近的匹配对象甚至不是抗毒素,而是某种“假设蛋白”(Hypothetical Protein)。这意味着,Evo在设计这些功能蛋白时,触及到了现有数据库注释之外的“暗物质”区域。

跨越模态的创造:蛋白质与RNA的共舞

生命的功能不仅仅由蛋白质执行。为了测试Evo是否能跨越模态差异,研究人员挑战了III型毒素-抗毒素系统(T3TA)。在这个系统中,抗毒素不是蛋白质,而是一种重复的RNA序列。

Evo再次证明了其强大的通用性。Evo生成了一个名为EvoT1的毒素蛋白和一个名为EvoAT6的RNA抗毒素。实验数据表明,EvoT1具有强烈的细胞毒性(存活率降至33%),而EvoAT6 RNA能够有效中和一种名为ToxN的天然III型毒素,将细菌存活率恢复到88%。

值得注意的是,EvoAT6与已知最接近的天然RNA抗毒素相比,序列同一性仅为78%。尽管序列有差异,但Evo生成的RNA精准地保留了关键的二级结构特征——假结(Pseudoknot)和茎环结构,这说明模型隐式地掌握了RNA折叠和分子互作的物理规律。

寻找“幽灵”:从零生成的抗CRISPR蛋白

抗CRISPR蛋白(Acrs)是进化的急先锋,序列变化极快。利用已知的Cas9靶向Acr操纵子作为上下文提示,Evo“脑补”出了一系列潜在的Acr基因。

在实验中,5个Evo生成的候选蛋白(EvoAcr1-5)表现出了强大的保护作用。其中,EvoAcr4和EvoAcr5的活性与已知的阳性对照相当。但真正让人倒吸一口凉气的是 EvoAcr1 和 EvoAcr2。

这两个蛋白是真正的“幽灵”。在OpenGenome数据库和NCBI的非冗余蛋白数据库中,研究人员找不到任何与它们具有显著序列同一性的蛋白。

即使是基于结构的搜索工具(如Dali和Foldseek)也束手无策,找不到强有力的结构匹配。AlphaFold对它们的结构预测置信度(pLDDT)极低,意味着在AI看来,它们甚至不像是一个折叠良好的蛋白质。然而,就是这两个在生物信息学上“查无此人”的序列,在实验中却实实在在起到了抗CRISPR的作用,相对存活率分别达到了0.82和0.74。

Evo告诉我们,在广阔的序列空间中,存在着大量我们未知的、不符合现有结构规则但依然具备功能的“孤岛”。语义设计,让我们第一次有能力登陆这些孤岛。

拼接出的生命奇迹:残基覆盖度分析

Evo到底是如何创造出这些“怪物”的?研究人员进行了一项精细的“残基覆盖度分析”。对于EvoAcr1和EvoAcr2,要拼凑出它们的完整序列,竟然需要分别从 28个 和 31个 不同的自然蛋白质中借用片段。作为对比,自然界中的Acr蛋白通常只需要2-6个片段就能覆盖。

这种碎片化的拼接程度,与目前最先进的从头设计(De Novo Design)AI模型(如RFdiffusion或BindCraft)生成的蛋白质相当。这说明Evo并不是在简单的记忆,而是在极其微观的层面,基序甚至更小的单位上,重新组合生命的积木。它学会了蛋白质构成的“语法”,然后用这些语法写出了全新的“句子”。

SynGenome:1200亿碱基的合成基因组宝库

研究人员没有止步于几个特定的系统,他们利用Evo 1.5生成了一个名为 SynGenome 的合成基因组数据库。这个数据库包含了超过1200亿碱基对的合成序列,以及370万个预测的蛋白质结构,涵盖了9000个基因本体(GO)术语。

SynGenome是一个充满了未知联系的知识图谱。例如,未知功能结构域 DUF2871 在多次提示-生成对中与“细胞色素c”频繁共现,这强烈暗示了DUF2871可能参与了呼吸链反应。此外,数据库中还发现了许多“嵌合体”(Chimeras),即由两个通常不相关的结构域融合而成的单一蛋白质,这可能代表了全新的生化功能或调控机制。

超越自然进化的语义跃迁

这项研究向我们展示了一种全新的生物学范式:功能不一定非要通过结构或序列相似性来定义,它可以通过“语境”来定义。

Evo生成的那些在序列和结构上都“离经叛道”却功能完备的基因,实际上是对我们现有生物学知识边界的一次拓展。生命的语言比我们想象的要丰富得多。当我们用AI去阅读这本写了40亿年的生命之书时,我们惊喜地发现,AI不仅学会了阅读,还学会了写作。SynGenome数据库现已完全开放 ( https://evodesign.org/syngenome/ ),等待着全球的研究人员去挖掘其中隐藏的生物学宝藏。

版权声明 本网站所有注明“来源:生物谷”或“来源:bioon”的文字、图片和音视频资料,版权均属于生物谷网站所有。非经授权,任何媒体、网站或个人不得转载,否则将追究法律责任。取得书面授权转载时,须注明“来源:生物谷”。其它来源的文章系转载文章,本网所有转载文章系出于传递更多信息之目的,转载内容不代表本站立场。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。

87%用户都在用生物谷APP 随时阅读、评论、分享交流 请扫描二维码下载->